[Day12] 設置請求標頭和Session

2024 iThome 鐵人賽

DAY 2

自我挑戰組

30天認識爬蟲系列第 12 篇

16th鐵人賽

eyeyeyeye

2024-09-27 23:17:32

69 瀏覽

分享至

今天是第十二天，在網路爬蟲中，請求標頭（headers）和Session的管理對於模擬正常的用戶行為至關重要。這不僅能提高請求的成功率，還能繞過某些反爬蟲措施。今天我們將深入了解這兩者的作用及如何設置它們。

什麼是請求標頭？
請求標頭是HTTP請求中用來傳遞附加信息的一部分。這些信息可以告訴伺服器一些關於請求的上下文，比如用戶代理、內容類型和授權信息等。
以下是一些常見的請求標頭：
User-Agent：這個標頭告訴伺服器是哪個瀏覽器發出的請求，對於爬蟲來說，模擬一個常見的瀏覽器User-Agent可以幫助減少被識別為爬蟲的機會。
Referer：這個標頭指明了從哪個網頁來的請求，可以幫助伺服器追蹤請求的來源。
Accept：這告訴伺服器客戶端能接受的內容類型

使用Python的requests庫，可以輕鬆地設置請求標頭：

import requests

url = 'http://example.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Referer': 'http://example.com',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
}

response = requests.get(url, headers=headers)
print(response.text)  # 輸出回應內容

在這段代碼中，我們設置了User-Agent、Referer和Accept標頭，這樣伺服器就會認為請求是來自正常的瀏覽器，而不是爬蟲。

什麼是Session？
Session是一個持久化的連接，它允許你在多個請求之間保存數據，如cookie。這對於需要登錄的網站特別重要，因為登錄後的會話會將身份信息保存在cookie中。

使用Session的範例:

session = requests.Session()

# 登錄步驟
login_url = 'http://example.com/login'
login_data = {
    'username': 'your_username',
    'password': 'your_password'
}

# 發送登錄請求
session.post(login_url, data=login_data)

# 使用同一個Session訪問其他頁面
response = session.get('http://example.com/protected_page')
print(response.text)  # 輸出受保護頁面的內容

在這段代碼中，我們首先創建了一個Session對象，然後使用它來發送登錄請求，隨後使用同一個Session來訪問需要登錄的受保護頁面。

總結:設置請求標頭和使用Session是爬蟲開發中不可忽視的技巧。，通過合理地模擬瀏覽器行為和管理會話，爬蟲將更具穩定性和效率。